#Latent Forcing | 熱門關鍵字 | 鉅亨號

長期以來，AI生圖被一個經典矛盾困擾。潛空間模型效率高，但細節有損耗；像素空間模型保真度高，卻容易結構混亂、速度慢。要麼快要沒準，大家幾乎默認這是架構帶來的取捨問題，沒法徹底解決。但擴散模型生圖，順序真的對嗎？李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識，他們發現生成的質量瓶頸不在架構，而在順序。簡單說就像畫畫必須先打草稿再填色，AI也需要一個「先定結構、後填細節」的強制邏輯。Latent Forcing僅通過重排生成軌跡，像素擴散模型不僅找回了效率，更在多項指標上刷新SOTA。傳統方法瓶頸在深入瞭解Latent Forcing之前，咱先來說說當前兩大方法的瓶頸。傳統像素級擴散模型之所以畫圖會畫歪，是因為它在降噪過程中，高頻的紋理細節往往會干擾低頻的語義結構。模型常常在還沒搞清楚物體的整體輪廓時，就被迫去預測局部的像素顏色，其實這在本質上就違背了視覺生成的自然邏輯。為瞭解決這個問題，行業此前大多轉向潛空間。它通過預訓練的tokenizer把圖像壓到低維空間，生成速度飛起。但潛空間模型必須依賴一個預訓練的解碼器，但這不僅會引入重建誤差，也讓模型失去了端到端建模原始資料的能力。於是李飛飛團隊思考——能不能既保留像素級的無損精度，又獲得潛空間的結構引導？先打個草稿Latent Forcing的答案是——對擴散軌跡重新排序。怎麼做的呢？在不改變基礎Transformer架構的前提下，引入了雙時間變數機制。在訓練和生成過程中，模型會同時處理像素和潛變數。不同的是，團隊為兩者定製了獨立的降噪節奏：潛變數先行：在生成初期，潛變數會率先完成降噪，在大尺度上確立圖像的語義骨架；像素填色：在結構確定後，像素部分再跟進進行精細化降噪。這麼一看，潛變數就像是一個臨時的草稿本。生成結束時，這個草稿本直接丟棄，最終輸出仍是100%無損的原始像素圖像，沒有任何decoder。整個過程端到端、可擴展，幾乎不增加計算量（token數量不變，速度接近原生DiT）。這種先latent後pixel的細微調整，在ImageNet榜單上展現了出色的表現。在相同計算規模，訓練80個epochs的條件下，Latent Forcing在ImageNet-256任務中，條件生成的FID分數較此前最強的像素級模型JiT+REPA，從18.60降到9.76，接近腰斬。在200個epoch的最終模型（ViT‑L 規模）下，Latent Forcing實現了條件生成FID 2.48（guided）、無條件生成FID 7.2（unguided）的分數。創下像素空間擴散Transformer新的SOTA。過去學術界普遍認為，必須通過更高倍率的失真壓縮才能換取好的FID表現。Latent Forcing則用資料反駁了這一觀點——在保持100%原始像素精度的情況下，我們依然能跑出超越有損模型的性能。Latent Forcing項目由李飛飛領銜。第一作者Alan Baade是李飛飛的學生，史丹佛電腦系博士生，在擴散模型和生成建模方向有深入研究。其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。此外，密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)